查看原文
其他

牛逼了!Scikit-learn 0.22新版本发布,新功能更加方便

wLsq Python数据科学 2020-09-13


☞500g+超全学习资源免费领取

作者:xiaoyu,数据爱好者

Python数据科学出品


Scikit-learn此次发布的版本为0.22。我浏览了一下,此次版本除了修复之前出现的一些bug,还更新了很多新功能,不得不说更加好用了。下面我把我了解到主要的几个最新功能和大家分享一下。

sklearn.ensemble 集成模型


1. 模型融合

旧版本的ensemble集成学习模块里只有提升树、随机森林等高级模型,新版本增加了

from sklearn.datasets import load_iris
from sklearn.svm import LinearSVC
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import make_pipeline
from sklearn.ensemble import StackingClassifier
from sklearn.model_selection import train_test_split

X, y = load_iris(return_X_y=True)
estimators = [
    ('rf', RandomForestClassifier(n_estimators=10, random_state=42)),
    ('svr', make_pipeline(StandardScaler(),
                          LinearSVC(random_state=42)))
]
clf = StackingClassifier(
    estimators=estimators, final_estimator=LogisticRegression()
)
X_train, X_test, y_train, y_test = train_test_split(
    X, y, stratify=y, random_state=42
)
clf.fit(X_train, y_train).score(X_test, y_test)


0.9473684210526315

2. 对梯度提升提供缺失值的本地支持

from sklearn.experimental import enable_hist_gradient_boosting  # noqa
from sklearn.ensemble import HistGradientBoostingClassifier
import numpy as np

X = np.array([012, np.nan]).reshape(-11)
y = [0011]

gbdt = HistGradientBoostingClassifier(min_samples_leaf=1).fit(X, y)
print(gbdt.predict(X))

[0 0 1 1]


sklearn.impute 模块

新版本的 sklearn.impute 模块中增加了 impute.KNNImputer ,所以当我们需要填补缺失值时,可以考虑直接使用KNN的这个算法填补。

import numpy as np
from sklearn.impute import KNNImputer

X = [[12, np.nan], [343], [np.nan, 65], [887]]
imputer = KNNImputer(n_neighbors=2)
print(imputer.fit_transform(X))

[[1. 2. 4. ]
[3. 4. 3. ]
[5.5 6. 5. ]
[8. 8. 7. ]]


sklearn.inspection 模块

新增加了 inspection.permutation_importance, 可以用来估计每个特征的重要性。

from sklearn.ensemble import RandomForestClassifier
from sklearn.inspection import permutation_importance

X, y = make_classification(random_state=0, n_features=5, n_informative=3)
rf = RandomForestClassifier(random_state=0).fit(X, y)
result = permutation_importance(rf, X, y, n_repeats=10, random_state=0,
                                n_jobs=-1)

fig, ax = plt.subplots()
sorted_idx = result.importances_mean.argsort()
ax.boxplot(result.importances[sorted_idx].T,
           vert=False, labels=range(X.shape[1]))
ax.set_title("Permutation Importance of each feature")
ax.set_ylabel("Features")
fig.tight_layout()
plt.show()



▍sklearn.metrics 模块

新版本增加了一个非常好的功能 metrics.plot_roc_curve,解决了roc_curve 绘制的问题。原来需要自己根据auc/roc原理自己撸,虽然网上已有了相应成熟的现成代码,但此后可以直接放心大胆的用了。

同时,roc_auc_score average='macro'average='weighted')。

from sklearn.datasets import make_classification
from sklearn.svm import SVC
from sklearn.metrics import roc_auc_score

X, y = make_classification(n_classes=4, n_informative=16)
clf = SVC(decision_function_shape='ovo', probability=True).fit(X, y)
print(roc_auc_score(y, clf.predict_proba(X), multi_class='ovo'))

0.9957333333333332

plotting API 

这个新API可以快速调整图形的视觉效果,不再需要进行重新计算。也可以在同一个图形中添加不同的图表。例如:


from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import plot_roc_curve
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import make_classification
import matplotlib.pyplot as plt

X, y = make_classification(random_state=0)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

svc = SVC(random_state=42)
svc.fit(X_train, y_train)
rfc = RandomForestClassifier(random_state=42)
rfc.fit(X_train, y_train)

svc_disp = plot_roc_curve(svc, X_test, y_test)
rfc_disp = plot_roc_curve(rfc, X_test, y_test, ax=svc_disp.ax_)
rfc_disp.figure_.suptitle("ROC curve comparison")

plt.show()




预计算的稀疏近邻图


大多数基于最近邻图的估算都接受预先计算的稀疏图作为输入,以将同一图重用于多个估算量拟合。

要在pipeline中使用这个特性,可以使用 memory 参数,以及neighbors.KNeighborsTransformerneighbors.RadiusNeighborsTransformer 中的一个。

预计算还可以由自定义的估算器来执行。

from tempfile import TemporaryDirectory
from sklearn.neighbors import KNeighborsTransformer
from sklearn.manifold import Isomap
from sklearn.pipeline import make_pipeline

X, y = make_classification(random_state=0)

with TemporaryDirectory(prefix="sklearn_cache_"as tmpdir:
    estimator = make_pipeline(
        KNeighborsTransformer(n_neighbors=10, mode='distance'),
        Isomap(n_neighbors=10, metric='precomputed'),
        memory=tmpdir)
    estimator.fit(X)

    # We can decrease the number of neighbors and the graph will not be
    # recomputed.
    estimator.set_params(isomap__n_neighbors=5)
    estimator.fit(X)
以上就是本次我了解到的主要更新内容,更多详细信息请参考。
链接:https://scikit-learn.org/dev/whats_new/v0.22.html

安装

升级很简单,一行指令即可完成。
pip install --upgrade scikit-learn


或者用conda


conda install scikit-learn





推荐阅读

1、牛逼!这个Python库竟然可以偷懒,和import说再见!
2、SQL语句大全,所有的SQL都在这里(1.5万字长文)
3、{1,t},...,g_{c,t}...g_{n,t}>Windows上评分最高的截图工具,帮你搞定论文和设计难题

4、{1,t},...,g_{c,t}...g_{n,t}>PyTorch中文版官方教程来了,附pdf下载

5、{1,t},...,g_{c,t}...g_{n,t}>神作《统计学习要素》的中文翻译、代码实现及其习题解答,附下载

6、400页《TensorFlow 2.0 深度学习算法实战》中文版教材免费下载(附随书代码+pdf)

7、PDF&PPT下载 | Github 9.9K Star的《神经网络与深度学习》




👆扫码回复:数据分析

获取38g数据分析学习资源




喜欢文章,点个在看

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存